热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

竞赛报名|AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

也许用不了多久,人们就会看到全新的数据库交互方式。不一定是专业的SQL语言开发者,也不用局限于传统的条件筛选,交互很简单,说说话,就可以随心所欲的调用所需数据,甚至完成更复杂的“逻辑”式计算。更重要的,数据库开发和应用的舒适度都有望大大提升。这就是

也许用不了多久,人们就会看到全新的数据库交互方式。

不一定是专业的 SQL 语言开发者,也不用局限于传统的条件筛选,交互很简单,说说话,就可以随心所欲的调用所需数据,甚至完成更复杂的“逻辑”式计算。更重要的,数据库开发和应用的舒适度都有望大大提升。

这就是NL2SQL的魔力。

得益于人工智能和NLP的发展,用自然语言生成可执行的SQL语句,进而挖取数据价值,正成为新兴研究领域。6月3日,国内首届中文NL2SQL挑战赛正式上线启动。

大赛由国内领先的智能语义公司 追一科技 主办, 总奖金池16.5万 ,将发布 全球首个中文数据集 ,向海内外高校学生、研究机构、企业开发者开放,共同推进NLP在数据库交互上的创新研究与普惠应用。

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

打通人与结构化数据间的壁垒

在AI、区块链、IoT、AR等高新技术飞速发展的当下,数据库这一宝库似乎被遗忘在了角落。数据库存储了大量的个人或者企业的生产运营数据,每天都会和数据库产生或多或少的交互。

通常,如果想要查询数据库中的数据,需要通过像SQL这样的程序式查询语言来进行交互,这就需要懂SQL语言的专业技术人员来执行这一操作。

为了让非专业用户也可以按需查询数据库,当前流行的技术方案设计了基于条件筛选的专门界面,用户可以通过点选不同的条件来查询数据库,比如这个筛选汽车的界面。

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

然而,在这个界面上进行操作,极大地限定了数据库查询的使用场景和查询界限。同时,即使是对于精通数据库程序语言的专业人士,经常构思SQL语句、维护这样一个查询界面也是一项重复度较高的工作。

在CUI(Conversation User Interface)的大背景下, 如何通过自然语言自由地查询数据库中的目标数据成为了新兴的研究热点。

Natural Language to SQL( NL2SQL)就是这样的一项技术,可以将用户的自然语句转为可以执行的SQL语句。

此次比赛,也是中文研究领域首次举办NL2SQL相关比赛。

在海外,NL2SQL领域的研究,已经取得了一定成果,发布了WikiSQL、Spider、WikiTableQuestions、ATIS 等诸多公开数据集。一些数据集的准确度,已经达到了90%以上,但很大程度只是抛砖引玉,落地场景价值受限。高价值数据集,难度又令人望而生畏。

作为智能语义的领跑者,追一科技在智能交互上,拥有深厚的积累,包括在对话机器人、阅读理解、文本挖掘等,形成了大量前瞻研究与商业应用案例。对于数据库智能化交互,追一科技将率先发布首个中文NL2SQL数据集。

据了解,本届NL2SQL比赛目标是 利用NLP技术来解决数据库交互问题 ,让非技术背景用户可以通过自然语言的方式与数据库进行交互,打通人与结构化数据间的壁垒,更有效地利用结构化数据,实现人机交互体验升级。比赛过程中会涉及到结构化数据理解、语义理解、数据库交互等多方面的挑战。

首个NL2SQL中文数据集

追一科技将提供预处理好的有标签数据集及相应的数据库文件,以助力数据驱动型学习。参赛者需要在初赛阶段提交线下预测结果,复赛阶段提交线上预测代码及模型,在不可见的数据集上进行测试,按测试结果进行最终排名。

本次比赛的数据集包含有约4,500张表格、50,000条基于这些表格提出的自然语言问句,以及自然语言问句所对应的SQL语句。数据来源是通过爬取并解析公开数据源中存在的表格,内容则主要覆盖了金融领域及通用领域。

与现有的英文NL2SQL数据集不同的是,本次比赛的数据集包含了更口语化的表达、额外引入表格内容作为输入的一部分,这就要求选手不仅要结合自然语言问句与表结构来正确地预测SQL语句骨架,更需要思考何将自然语言语义与结构化的表格结构及表格内容有效地融合和理解,从而生成正确的SQL语句。

NL2SQL的未来

在行业研报、业绩报告、新闻公告、使用说明书等各种书面信息载体上,尤其是金融、快消等行业的各种报告,充斥着许多表格形式的结构化数据。而当用户去查询表格中的内容时,需要肉眼去从表格中去筛选满足条件的数据,准确率和效率都较低。

通过NL2SQL,用户在查询这些表格的内容时,可以直接通过自然语言与表格进行交互,并得到结果,用户体验会很自然。

“我们相信,随着NLP进入AI领域研究的焦点位置,越来越多场景将被解锁,并激发出创新的应用和商业模式。数据库的创新交互,将拥有巨大的潜力。”追一科技联合创始人兼CTO刘云峰表示,此次NL2SQL大赛,只是一个起点,追一科技作为智能语义领跑者,期待与更多NLP和AI开发者一起努力,不断探索NLP赋能新秘境。

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

  追一科技联合创始人兼CTO刘云峰

报名通道

进入下方网址,或点击阅读原文,进入报名页面:

https://tianchi.aliyun.com/markets/tianchi/zhuiyi

比赛日程

初赛:本地训练和预测,6月24日-8月6日

复赛:线上训练和预测,8月19日-9月9日

决赛:线下答辩和颁奖,10月(具体时间、地点待定)

奖项设置

总奖金池16.5万

一等奖8万(1支队伍)

二等奖5万(1支队伍)

三等奖2万(1支队伍)

优胜奖获价值7500元的数码产品(2支队伍)

获奖者均可获得追一科技校招offer直通卡,免简历筛选和笔试,直接进入技术面试。

大咖评审

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

毛可智

新加坡南洋理工大学副教授

新加坡南洋理工大学副教授,谢菲尔德大学博士。在机器学习、文本分析、自然语言处理和信息融合方面拥有20多年经验,发表了大约100篇科学论文。

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

俞扬

南京大学教授

俞扬博士,南京大学教授,中组部万人计划青年拔尖人才计划。主要研究领域为机器学习、强化学习。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。发表论文40余篇,获得4项国际论文奖励和2项国际算法竞赛冠军,入选2018年IEEE Intelligent Systems杂志评选的“国际人工智能10大新星”,获2018亚太数据挖掘”青年成就奖”,受邀在IJCAI’18作关于强化学习的”青年亮点”报告。

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

漆桂林

东南大学教授

东南大学教授、博士生导师,东南大学认知智能研究所所长,英国贝尔法斯特女皇大学博士,发表高水平学术论文 150 余篇。

— 完 —

AI社群 | 与优秀的人交流

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

精选直播 | 大牛的观点碰撞

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战

量子位  QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧!


以上所述就是小编给大家介绍的《竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 我们 的支持!


推荐阅读
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 本文介绍了H5游戏性能优化和调试技巧,包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说,解决游戏性能问题是一个关键的任务,本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]
  • 本文详细介绍了Android中的坐标系以及与View相关的方法。首先介绍了Android坐标系和视图坐标系的概念,并通过图示进行了解释。接着提到了View的大小可以超过手机屏幕,并且只有在手机屏幕内才能看到。最后,作者表示将在后续文章中继续探讨与View相关的内容。 ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
  • 推荐 :以数据驱动的方式讲故事
    直觉vs数据首先,你有思考过一个问题吗?当你的直觉与你所掌握的数据矛盾的时候,你是听从于直觉还是相信你所掌握的数据呢?201 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • IB 物理真题解析:比潜热、理想气体的应用
    本文是对2017年IB物理试卷paper 2中一道涉及比潜热、理想气体和功率的大题进行解析。题目涉及液氧蒸发成氧气的过程,讲解了液氧和氧气分子的结构以及蒸发后分子之间的作用力变化。同时,文章也给出了解题技巧,建议根据得分点的数量来合理分配答题时间。最后,文章提供了答案解析,标注了每个得分点的位置。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
author-avatar
穿过a黑夜_440
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有